Keras 优化程序

Keras 中有很多优化程序，建议你访问此链接或这篇精彩博文（此链接来自外网，国内网络可能打不开），详细了解这些优化程序。这些优化程序结合使用了上述技巧，以及其他一些技巧。最常见的包括：

这是随机梯度下降。它使用了以下参数：

Adam (Adaptive Moment Estimation) 使用更复杂的指数衰减，不仅仅会考虑平均值（第一个动量），并且会考虑前几步的方差（第二个动量）。

RMSProp (RMS 表示均方根误差）通过除以按指数衰减的平方梯度均值来减小学习速率。